当前位置: 开发笔记 > 编程语言 > 正文

大数据开发|Hadoop分布式集群环境构建

作者：mobiledu2502898543 | 来源：互联网 | 2023-09-12 10:10

一直想编写一系列有关大数据开发、数据挖掘、云计算等相关课程的学习资料，为零基础又想从事大数据行业的小伙伴提供一些参考。今天第一篇《Hadoop分布式集群环境构建&#x

一直想编写一系列有关大数据开发、数据挖掘、云计算等相关课程的学习资料&＃xff0c;为零基础又想从事大数据行业的小伙伴提供一些参考。今天第一篇《Hadoop分布式集群环境构建&＃xff08;1&＃xff09;》终于和大家见面了。

一

集群主机规划

二

软件安装包准备

会将软件所有安装包放入百度云盘&＃xff0c;以供大家方便下载。链接&＃xff1a;http://pan.baidu.com/s/1i5CdjI9 密码&＃xff1a;f7rn

三

安装环境准备

3.1

创建用户

为每台机子创建一个不是root的用户&＃xff0c;该集群是以hadoop来创建的。并且每台机子的用户以及密码都要相同。

操作命令&＃xff1a;

每台服务器用root账户下&＃xff1a;

useradd hadoop

echo "hadoop" | passwd --stdin Hadoop

3.2

配置hosts文件以及network

集群中的所有机器的 /etc/hosts 文件内容均一致&＃xff0c;都要将集群中的各 IP 和主机名对应起来&＃xff0c;而且都能互相ping通。如下&＃xff1a;

修改集群所有机子的/etc/sysconfig/network文件&＃xff0c;HOSTNAME要改成对应的主机名。如下&＃xff1a;

四

安装jdk

首先解压该安装包&＃xff1a;

tar -xvzf jdk-7u67-linux-x64.tar.gz -C /

对解压的安装包重新命名

mv jdk1.7.0_67 jdk

将jdk文件复制到/home/hadoop/目录下并赋予相应权限

cp /jdk /home/hadoop/

chown -R hadoop:hadoop /home/hadoop/jdk

配置jdk的环境变量&＃xff1a;

vi /etc/profile

使以上配置环境变量生效&＃xff1a;

Source /etc/profile

以上步骤其余机子都需要操作一遍

五

ssh免密码通信

通过云盘中提供的一个脚本文件来实现&＃xff0c;名称是zeno_ssh_update.sh。

首先需要创建一个目录&＃xff1a;/home/zeno_programpag

然后将下载的脚本文件放入到这个目录下。

加入如下内容&＃xff1a;

执行脚本文件&＃xff08;root用户下执行&＃xff09;

./zeno_ssh_update.sh hadoop hadoop

脚本后面跟的是用户名及用户密码

检查SSH免密码登录是否完成。

想系统学习大数据的话&＃xff0c;可以加入大数据技术学习扣扣君羊&＃xff1a;522189307

六

安装zookeeper

6.1

解压zookeeper

将该安装包解压到/home/hadoop/下

tar -zxvf zookeeper-3.4.5-cdh5.4.0.tar.gz –C /home/hadoop/

6.2

修改配置文件

在/home/hadoop/zookeeper/conf目录下,复制一各名为zoo.cfg的文件

cp zoo_sample.cfg zoo.cfg

修改zoo.cfg中的文件内容

加入如下标注的内容

创建/tmp/zookeeper/目录&＃xff0c;并赋予hadoop的所有组及所有者权限

mkdir -p /tmp/zookeeper/

并创建myid文件&＃xff0c;加入zoo.cfg中对应的数

将/home/Hadoop/zookeeper 复制到其他机子。

scp -r /home/Hadoop/zookeeper/ hadoop&＃64;hadoop3:/home/hadoop/

scp -r /home/Hadoop/zookeeper/ hadoop&＃64;hadoop5:/home/hadoop/

注意每台机子都需要创建myid这个文件&＃xff0c;并修改对应的数字。

6.3

启动zookeeper服务(三台机子)

/home/hadoop/zookeeper/sbin/ zkServer.sh start

6.4

查看zookeeper服务状态

出现以下的状态就说明zookeeper成功了

七

安装hadoop集群

7.1

解压hadoop安装包

tar -zxvf hadoop-2.6.0-cdh5.4.0.tar.gz –C /home/hadoop/

chown -R hadoop:hadoop /home/hadoop/hadoop

7.2

修改配置文件

hadoop-env.sh文件

向其中添加如下两行&＃xff1a;

export JAVA_HOME&＃61;/home/hadoop/jdk
export HADOOP_HOME&＃61;/home/hadoop/Hadoop

配置core-site.xml

#vi core-site.xml

fs.defaultFS
hdfs://mycluster

hadoop.tmp.dir
/home/hadoop/hadoop/data/hadoop/tmp

dfs.journalnode.edits.dir

/path/to/journal/node/local/data

ha.zookeeper.quorum
hadoop5:2181,hadoop4:2181,hadoop3:2181

需要手动创建&＃xff1a;/home/hadoop/hadoop/data/hadoop/tmp目录

mkdir –p /home/hadoop/hadoop/data/hadoop/tmp

配置hdfs-site.xml

#vi hdfs-site.xml

dfs.journalnode.edits.dir

/home/hadoop/hadoop/ha/journal

dfs.permissions

false

dfs.permissions.enabled

false

dfs.replication

dfs.webhdfs.enabled

true

dfs.namenode.name.dir

/home/hadoop/hadoop/dfs/name

dfs.datanode.data.dir

/home/hadoop/hadoop/dfs/data

dfs.nameservices

mycluster

dfs.ha.namenodes.mycluster

nn1,nn2

dfs.namenode.rpc-address.mycluster.nn1

hadoop3:8020

dfs.namenode.rpc-address.mycluster.nn2

hadoop4:8020

dfs.namenode.http-address.mycluster.nn1

hadoop3:50070

dfs.namenode.http-address.mycluster.nn2

hadoop4:50070

dfs.namenode.shared.edits.dir

qjournal://hadoop5:8485;hadoop4:8485;hadoop3:8485/mycluster

dfs.ha.automatic-failover.enabled

true

dfs.client.failover.proxy.provider.mycluster

org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider

dfs.ha.fencing.methods

sshfence

dfs.ha.fencing.ssh.private-key-files

/home/hadoop/.ssh/id_rsa

dfs.ha.fencing.ssh.connect-timeout

30000

配置mapred-env.sh

加入

export JAVA_HOME&＃61;/home/hadoop/jdk

配置mapred-site.xml

mapreduce.framework.name

yarn

配置yarn-env.sh

export JAVA_HOME&＃61;/home/hadoop/jdk

配置yarn-site.xml

# vi yarn-site.xml

yarn.resourcemanager.ha.enabled

true

yarn.resourcemanager.cluster-id

cluster1

yarn.resourcemanager.ha.rm-ids

rm1,rm2

yarn.resourcemanager.hostname.rm1

hadoop3

yarn.resourcemanager.hostname.rm2

hadoop4

yarn.resourcemanager.zk-address

hadoop5:2181,hadoop4:2181,hadoop3:2181

yarn.nodemanager.aux-services

mapreduce_shuffle

配置slaves

以上hadoop的配置就算完成了。

将/home/Hadoop/Hadoop/ 拷贝到其他机子上

scp –r /home/Hadoop/Hadoop/ hadoop&＃64;hadoop3:/home/Hadoop/

scp –r /home/Hadoop/Hadoop/ hadoop&＃64;hadoop5:/home/Hadoop/

八

启动集群

8.1

格式换命名空间(hadoop4)

/home/hadoop/hadoop/bin/hdfs zkfc -formatZK

8.2

启动journalnode&＃xff08;三台&＃xff09;

/home/hadoop/hadoop /sbin/hadoop-daemon.sh start journalnode

通过jps查看一下出现journalnode说明成功

8.3

格式化master节点并启动hadoop服务

/home/hadoop/hadoop/bin/hadoop namenode -format mycluster

启动hadoop服务

/home/hadoop/hadoop /sbin/hadoop-daemon.sh start namenode

将hadoop4这台机子格式化的文件拷贝到hadoop3上

格式化后的文件是放在/home/hadoop/hadoop/dfs/name这个目录下的。

scp /home/hadoop/hadoop/dfs/name hadoop&＃64;hadoop3:/home/hadoop/hadoop/dfs/name/

在hadoop3上启动hadoop服务

/home/hadoop/hadoop /sbin/hadoop-daemon.sh start namenode

8.4

hadoop4和hadoop3节点上启动zkfs

/home/hadoop/hadoop /sbin/hadoop-daemon.sh start zkfc

8.5

启动DataNode&＃xff08;三台&＃xff09;

/home/hadoop/hadoop /sbin/hadoop-daemon.sh start datanode

8.6

启动yarn&＃xff08;一台master&＃xff09;

/home/hadoop/hadoop /sbin/start-yarn.sh

Ok&＃xff0c;所有的进程都已启动完成了。

网页通过端口访问hadoop&＃xff1a;http://192.168.211.88:50070/

以下的效果说明已经完全构建了一个HA高可用的hadoop大数据集群环境。

集群环境mapreduce测试&＃xff1a;

执行hadoop自带的mapreduce是否能够成功&＃xff1f;

/home/hadoop/hadoop/bin/hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.4.0.jar wordcount /wangyd/ /output/wordcount1

发现mapreduce执行也是没有问题了&＃xff0c;说明整个集群搭建ok了。

推荐阅读

list
如何在Linux服务器上配置MySQL和Tomcat的开机自动启动

在Linux服务器上部署Web项目时，通常需要确保MySQL和Tomcat服务能够随系统启动而自动运行。本文将详细介绍如何在Linux环境中配置MySQL和Tomcat的开机自启动，以确保服务的稳定性和可靠性。通过合理的配置，可以有效避免因服务未启动而导致的项目故障。 ... [详细]

蜡笔小新 2024-11-11 19:41:03
install
Linux 环境下 Java 及相关软件的安装指南

本文详细介绍了如何在 Linux 系统上安装 JDK 1.8、MySQL 和 Redis，并提供了相应的环境配置和验证步骤。 ... [详细]

蜡笔小新 2024-11-13 18:10:16
config
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
install
Linux CentOS 7 安装PostgreSQL 9.5.17 （源码编译）

近日需要将PostgreSQL数据库从Windows中迁移到Linux中，LinuxCentOS7安装PostgreSQL9.5.17安装过程特此记录。安装环境&#x ... [详细]

蜡笔小新 2024-11-12 22:05:03
install
Linux笔记：JDK安装与环境变量配置

本文详细介绍了在Linux系统中安装JDK并配置环境变量的步骤，帮助读者顺利完成Java开发环境的搭建。 ... [详细]

蜡笔小新 2024-11-14 15:46:31
list
一个Tomcat配置多个端口

一、Tomcat安装后本身提供了一个server，端口配置默认是8080，对应目录为：..\Tomcat8.0\webapps二、Tomcat8.0配置多个端口，其实也就是给T ... [详细]

蜡笔小新 2024-11-14 11:23:53
text
深入探讨ASP.NET 2.0中的Callback机制及其应用

本文详细解析了ASP.NET 2.0中的Callback机制，不仅介绍了基本的使用方法，还深入探讨了其背后的实现原理。通过对比Atlas框架，帮助读者更好地理解和应用这一机制。 ... [详细]

蜡笔小新 2024-11-14 10:03:15
config
为什么多数程序员难以成为架构师？

探讨80%的程序员为何难以晋升为架构师，涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件，帮助读者理解其内部机制。 ... [详细]

蜡笔小新 2024-11-14 03:39:46
install
CentOS 6.4 安装 QT5 时无法找到 GLIBCXX_3.4.15 的解决方案

在 CentOS 6.4 上安装 QT5 并启动 Qt Creator 时，可能会遇到缺少 GLIBCXX_3.4.15 的问题。这是由于系统中的 libstdc++.so.6 版本过低。本文将详细介绍如何通过更新 GCC 版本来解决这一问题。 ... [详细]

蜡笔小新 2024-11-13 16:52:41
install
使用ArcGIS for Java和Flex浏览自定义ArcGIS Server 9.3地图

本文介绍了如何在Flex应用程序中实现浏览自定义ArcGIS Server 9.3发布的地图。这是一个基本的入门示例，适用于初学者。 ... [详细]

蜡笔小新 2024-11-13 14:40:13
uri
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
list
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
install
解决 Ubuntu 环境下 Hadoop 集群 SSH 密钥认证问题

本文详细介绍了在 Ubuntu 系统上搭建 Hadoop 集群时遇到的 SSH 密钥认证问题及其解决方案。通过本文，读者可以了解如何在多台虚拟机之间实现无密码 SSH 登录，从而顺利启动 Hadoop 集群。 ... [详细]

蜡笔小新 2024-11-13 09:14:02
config
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
list
dockercompose搭建多主多从RocketMQ集群

1.创建目录mkdir-phomerocketmqnamesvr1data&&mkdir-phomerocketmqnamesvr1log&&mkdir-phomerocketm ... [详细]

蜡笔小新 2024-11-12 15:50:43

mobiledu2502898543

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章